در گفتار پیوسته، کلمات به صورت های گوناگونی تلفظ می شوند. وجود تنوعات تلفظی ایجاب می نماید واژگان سیستم بازشناسی گفتار پیوسته، حاوی گونه های مختلف تلفظی کلمات باشد. از این طریق می توان درصد دقت بازشناسی کلمات را افزایش داد. در این مقاله برآنیم روشی خودکار جهت تولید گونه های تلفظی کلمات ارایه نماییم. در این روش قواعد تلفظی از طریق مقایسه نسخه های همردیف سازی شده دنباله واجی مرجع کلمه و دنباله واجی بازشناسی شده از سیگنال گفتار، یادگیری می شوند. علاوه بر این، تعدادی قاعده که بر اساس دانش و اطلاعات آواشناسی زبان فارسی ایجاد شده، جهت تکمیل قواعد قبلی، به آنها اضافه می شوند. متعاقبا بعد از هرس آماری قواعد یادگیری شده، با اعمال آنها به دنباله واجی مرجع کلمات به تولید گونه های تلفظی آنها پرداخته می شود. این شیوه نسبت به روش اضافه نمودن دستی گونه های تلفظی کلمات، بر اساس اطلاعات آواشناسی، برتری دارد، چرا که در این روش گونه های تلفظی با توجه به خطاهای سیستم بازشناسی آواها به همراه احتمالات وقوع آنها و به صورت خودکار تولید می گردند. این روش با استفاده از دادگان گفتاری "فارس دات بزرگ"، پیاده سازی گردید و به کارگیری آن در تولید واژگان سیستم "شنوا" که یک سیستم بازشناسی گفتار پیوسته فارسی است، %3.47 افزایش درصد دقت بازشناسی کلمات را حاصل نمود.